查看原文
其他

8月18日9:00,Junshan Zhang教授介绍热启动强化学习相关研究

AUGUST

18

9:00-10:00


针对强化学习(Reinforcement Learning,RL)较高的采样复杂度和计算负荷的问题,热启动强化学习(Warm-Start RL)正成为一种有前途的新范式。热启动强化学习的基本思想是通过离线训练初始策略来加速在线学习。目前,热启动强化学习已成功应用于AlphaZero和ChatGPT,这些应用展示了热启动策略在加速在线学习方面的巨大潜力。为了深入理解热启动强化学习,研究量化函数逼近误差对热启动强化学习次优差距的影响是至关重要的。

第九期 IEEE TNSE 杰出讲座系列活动,我们有幸邀请到加州大学戴维斯分校的Junshan Zhang教授介绍热启动强化学习,并分享他在这个领域内的相关研究成果与有趣发现。


执行主席

Executive Chair

黄建伟

香港中文大学(深圳)校长讲座教授、协理副校长

AIRS 副院长兼群体智能中心主任

IEEE TNSE 主编

IEEE Fellow

AAIA Fellow


报告嘉宾

Speaker

Junshan Zhang

加州大学戴维斯分校电子与计算机工程系教授

IEEE Fellow

Junshan Zhang,加州大学戴维斯分校电子与计算机工程系教授,2000年于普渡大学获得博士学位,2000 年至 2021 年于亚利桑那州立大学任教。他的研究方向涉及信息网络和数据科学,包括边缘计算人工智能、强化学习、持续学习、网络优化与控制、博弈论,以及这些技术在互联和自动驾驶汽车、5G 及更高技术、无线网络、物联网 (IoT) 和智能电网中的应用。Junshan Zhang教授是 IEEE 会士,2005 年荣获 ONR 青年研究员奖,2003 年荣获 NSF 职业奖,2016 年荣获 IEEE 无线通信技术委员会认可奖。他的论文曾获得多项奖项,包括WiOPT 2018最佳学生论文、ACM SIGMETRICS/IFIP Performance 2016 Kenneth C. Sevcik杰出学生论文奖、IEEE INFOCOM 2009和IEEE INFOCOM 2014最佳论文亚军奖、IEEE ICC 2008和2017最佳论文奖。基于他的研究成果,他于2015年共同创立了Smartiply公司,这是一家边缘计算初创公司,为物联网应用提供增强的网络连接和嵌入式人工智能。


报告介绍

Topic & Abstract

Warm-Start Reinforcement Learning: From Function Approximation Error to Sub-optimality Gap

Conventional reinforcement learning (RL) techniques face the formidable challenge of high sample complexity and intensive computation load, which hinders RL's applicability in real-world tasks. To tackle this challenge, Warm-Start RL is emerging as a promising new paradigm, with the basic idea being to accelerate online learning by starting with an initial policy trained offline. Indeed, owing to the knowledge transfer from an initial policy, Warm-Start RL has been successfully applied in AlphaZero and ChatGPT, demonstrating its great potential to speed up online learning. Despite these remarkable successes, a fundamental understanding of Warm-Start RL is lacking. The primary objective of this study is to quantify the impact of function approximation errors on the sub-optimality gap for Warm-Start RL. We consider the widely used ‘Actor-Critic’ method for RL. For the unbiased case, we give sufficient conditions on the question ‘how good the warm-start policy needs to be’ to achieve fast convergence. For the biased case, our findings reveal that a ‘good’ warm-start policy (obtained by offline training) may be insufficient, and bias reduction in online learning also plays an essential role to lower the suboptimality gap. We then investigate bias reduction using adaptive ensemble learning and planning.




活动时间

2023年8月18日(周五) 9:00-10:00


参与方式


本次活动设多个直播渠道,观众可通过以下任一渠道观看直播。


本期活动指导单位

深圳市科学技术协会




AIRS-TNSE 联合杰出讲座系列

AIRS-TNSE Joint Distinguished Seminar Series


IEEE Transactions on Network Science and Engineering(简称 IEEE TNSE)是位于 JCR 1 区的网络科学领域顶级期刊,致力于探讨网络科学的理论和应用,以及构成网络系统中各元素之间的相互联系。IEEE TNSE 被 SCIE 数据库收录,位于 JCR 1 区,2022年影响因子为6.6。

AIRS-TNSE 联合杰出讲座系列由 IEEE TNSE 期刊和深圳市人工智能与机器人研究院(AIRS)联合主办,香港中文大学(深圳)、网络通信与经济学实验室(NCEL)、IEEE 联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。


*特别鸣谢谢成锦提供相关内容


相关阅读

IEEE TNSE 杰出讲座系列第八期回顾

IEEE TNSE 杰出讲座系列第七期回顾

IEEE TNSE 杰出讲座系列第六期回顾

继续滑动看下一个
深圳市人工智能与机器人研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存